Search CORE

1 research outputs found

Learning neural ordinary differential equations for optimal control

Author: Howe Nikolaus Harry Reginald
Publication venue
Publication date: 01/08/2021
Field of study

Ce mémoire rassemble des éléments d'optimisation, d'apprentissage profond et de contrôle optimal afin de répondre aux problématiques d'apprentissage et de planification dans le contexte des systèmes dynamiques en temps continu. Deux approches générales sont explorées. D'abord, une approche basée sur la méthode du maximum de vraisemblance est présentée. Ici, les trajectoires ``d'entrainement'' sont échantillonnées depuis la dynamique réelle, et à partir de celles-ci un modèle de prédiction des états observés est appris. Une fois que l'apprentissage est terminé, le modèle est utilisé pour la planification, en utilisant la dynamique de l'environnement et une fonction de coût pour construire un programme non linéaire, qui est par la suite résolu pour trouver une séquence de contrôle optimal. Ensuite, une approche de bout en bout est proposée, dans laquelle la tâche d'apprentissage de modèle dynamique et celle de planification se déroulent simultanément. Ceci est illustré dans le cadre d'un problème d'apprentissage par imitation, où le modèle est mis à jour en rétropropageant le signal de perte à travers l'algorithme de planification. Grâce au fait que l'entrainement est effectué de bout en bout, cette technique pourrait constituer un sous-module de réseau de neurones de plus grande taille, et pourrait être utilisée pour fournir un biais inductif en faveur des comportements optimaux dans le contexte de systèmes dynamiques en temps continu. Ces méthodes sont toutes les deux conçues pour fonctionner avec des modèles d'équations différentielles ordinaires paramétriques et neuronaux. Également, inspiré par des applications réelles pertinentes, un large recueil de systèmes dynamiques et d'optimiseurs de trajectoire, nommé Myriad, est implémenté; les algorithmes sont testés et comparés sur une variété de domaines de la suite Myriad.This thesis brings together elements of optimization, deep learning and optimal control to study the challenge of learning and planning in continuous-time dynamical systems. Two general approaches are explored. First, a maximum likelihood approach is presented, in which training trajectories are sampled from the true dynamics, and a model is learned to accurately predict the state observations. After training is completed, the learned model is then used for planning, by using the dynamics and cost function to construct a nonlinear program, which can be solved to find a sequence of optimal controls. Second, a fully end-to-end approach is proposed, in which the tasks of model learning and planning are performed simultaneously. This is demonstrated in an imitation learning setting, in which the model is updated by backpropagating the loss signal through the planning algorithm itself. Importantly, because it can be trained in an end-to-end fashion, this technique can be included as a sub-module of a larger neural network, and used to provide an inductive bias towards behaving optimally in a continuous-time dynamical system. Both the maximum likelihood and end-to-end methods are designed to work with parametric and neural ordinary differential equation models. Inspired by relevant real-world applications, a large repository of dynamical systems and trajectory optimizers, named Myriad, is also implemented. The algorithms are tested and compared on a variety of domains within the Myriad suite

Dépôt Institutionnel Numérique